Telegram Group Search
🔍 ML после релиза: почему модель может сломаться — и как это вовремя заметить

Внедрили модель, подтвердили гипотезу, получили эффект — работа сделана? Увы, нет.

После деплоя начинается настоящее испытание:
— данные меняются,
— поведение пользователей эволюционирует,
— а ваша модель может незаметно терять эффективность.

📌 Must-read для тех, кто работает с ML в продакшене и хочет, чтобы решения были устойчивыми, а не разовыми.

👉 Читайте, делитесь и не забывайте наблюдать за своими моделями: https://proglib.io/sh/fjpFLVWn8Z

Библиотека дата-сайентиста
📌 Промт дня: анализ важности признаков после обучения модели

После того как вы обучили модель (особенно если это ансамблевый метод вроде Random Forest или градиентного бустинга), важно понять, какие признаки влияют на предсказания.

Это помогает:
— интерпретировать модель,
— упростить её (feature selection),
— обнаружить «лишние» или дублирующие признаки.

Промт:
Проанализируй важность признаков обученной модели. Выполни следующие шаги:

— Извлеки и отсортируй признаки по степени важности.
— Построй barplot с топ-10 признаками.
— Проверь, есть ли признаки с нулевой или близкой к нулю важностью — возможно, их можно удалить.
— Если модель поддерживает SHAP / permutation importance — добавь соответствующую визуализацию.
— Сформулируй гипотезы: почему те или иные признаки оказались важны? Как это согласуется с предметной областью?


Рекомендованные инструменты:
model.feature_importances_ — в sklearn-моделях, XGBoost, LightGBM
eli5, shap, sklearn.inspection.permutation_importance — для глубокой интерпретации
seaborn.barplot, matplotlib — для наглядных графиков

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
😱 Вся правда об увольнениях в IT в 2025-м

Пока все молчат о том, что происходит на рынке, мы решили выяснить реальную картину. Без прикрас и корпоративного пиара.

Но для этого нам нужна ваша помощь! Мы собираем данные от разработчиков, тестировщиков, менеджеров и всех, кто работает в ИТ, чтобы создать честное исследование о:

— реальных причинах массовых увольнений
— судьбе тех, кто остался за бортом IT-рынка
— том, сколько времени сейчас нужно на поиск работы

Почему это важно? Потому что сила в правде. Зная реальную ситуацию, вы сможете лучше понимать тренды рынка и планировать карьеру.

⚡️Пройдите опрос и помогите всему сообществу: https://clc.to/yJ5krg
🧪 How-to: применить bootstrapping для оценки статистик

Когда данных немного или нет уверенности в распределении, bootstrapping приходит на помощь. Это техника, позволяющая оценить доверительные интервалы и стабильность метрик без строгих статистических предположений.

🚩 Что делать

Мы будем многократно пересэмплировать нашу выборку с возвращением и оценивать интересующую статистику (среднее, медиану, разницу, корреляцию и т.д.).

🚩 Шаги:

1️⃣ Импорт библиотек:
import numpy as np
from sklearn.utils import resample


2️⃣ Готовим данные:
data = np.array([12, 15, 14, 10, 8, 11, 13])  # пример


3️⃣ Запускаем бутстрэп:
boot_means = []

for _ in range(1000): # количество повторений
sample = resample(data, replace=True)
boot_means.append(np.mean(sample))


4️⃣ Оцениваем результат:
conf_int = np.percentile(boot_means, [2.5, 97.5])
print(f"95% доверительный интервал для среднего: {conf_int}")


🚩 На что обратить внимание:
📍 Используйте не менее 1000 итераций для устойчивых результатов.
📍 При маленьких выборках возможны смещения и высокая дисперсия.
📍 Если данные сильно несбалансированы — будьте осторожны с интерпретацией.

🚩 Основные преимущества:
✔️ Гибкость — можно применять к любым статистикам, особенно если неизвестно теоретическое распределение.
✔️ Без предположений — не требует априорных знаний о распределении в популяции.
✔️ Надёжность — работает даже при небольшом объёме выборки.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👾 AI-агенты — настоящее, о котором все говорят

На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉

Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи!

На обучении вы соберете полноценные LLM-системы с учётом особенностей доменных областей, получите hands-on навыки RAG, Crew-AI / Autogen / LangGraph и агентов.

🎓 В рамках курса вы научитесь:
— адаптировать LLM под разные предметные области и данные
— собирать свою RAG-систему: от ретривера и реранкера до генератора и оценки качества
— строить AI-агентов с нуля — на основе сценариев, функций и взаимодействия с внешней средой

Разберете реальные кейсы и научитесь применять похожие подходы в разных доменных областях, получите фундамент для уверенного прохождения NLP system design интервью и перехода на следующий грейд.

Старт 5 июля, а при оплате до 1 июня действует дополнительная скидка и бонус — эксклюзивный лонгрид по API и ML от Proglib.

Начните осваивать тему уже сейчас 👉 https://clc.to/Cttu7A
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение pinned «👾 AI-агенты — настоящее, о котором все говорят На днях мы анонсировали наш новый курс AI-агенты для DS-специалистов 🎉 Это продвинутая программа для тех, кто хочет получить прикладной опыт с LLM и решать сложные задачи! На обучении вы соберете полноценные…»
This media is not supported in your browser
VIEW IN TELEGRAM
🧩 Фишка: 8 типов AI-моделей, которые стоит знать

Не весь искусственный интеллект — это ChatGPT.
Сегодня в ИИ-экосистеме используются разные архитектуры, и каждая заточена под конкретный тип задач.

Вот ключевые типы моделей и для чего они подходят:

🔎 «LLM» — Large Language Models
Большие языковые модели.
🟡 Что делают: генерируют текст, отвечают на вопросы, пишут статьи, резюмируют.
Примеры: GPT-4, Claude, Gemini, LLaMA.

🔎 «LCM» — Latent Concept Models
Модели скрытых концептов.
🟡 Что делают: находят глубокие зависимости и «смыслы» в данных, которые не видны напрямую.
Применение: интерпретация решений моделей, выявление причин/паттернов в данных (например, в медицине или финансах).

🔎 «LAM» — Language Action Models
Модели языка и действий.
🟡 Что делают: понимают инструкции на естественном языке и сразу выполняют действия (например, бронируют, пересылают, настраивают).
Применение: агенты, автоматизация процессов, управление интерфейсами.

🔎 «MoE» — Mixture of Experts
Модель со множеством «экспертов» внутри.
🟡 Что делают: на каждый запрос активируют только нужную часть модели — эффективнее и быстрее.
Применение: масштабируемые модели без потери качества. Используется в Gemini и Switch Transformer.

🔎 «VLM» — Vision-Language Models
Мультимодальные модели (изображения + текст).
🟡 Что делают: интерпретируют визуальную информацию вместе с текстовой.
Примеры: GPT-4V, Gemini, Kosmos, LLaVA.
Задачи: подписи к изображениям, визуальный поиск, анализ UI, документация.

🔎 «SLM» — Small Language Models
Компактные языковые модели.
🟡 Что делают: быстрее, легче, дешевле. Жертвуют масштабом ради скорости и автономности.
Примеры: Mistral 7B, Phi-2, TinyLLaMA.
Используются в мобильных, edge- и офлайн-устройствах.

🔎 «MLM» — Masked Language Models
Обучение на «пропусках» (масках).
🟡 Что делают: предсказывают скрытые слова → улучшают понимание контекста.
Примеры: BERT, RoBERTa.
Идеальны для классификации, поиска, исправления текста.

🔎 «SAM» — Segment Anything Model
Модель «укажи — и вырежу».
🟡 Что делает: сегментирует любой объект на изображении по клику.
Пример: SAM от Meta.
Применение: дизайн, медицина, роботика, редактирование изображений.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Дождались! Ребята сделали крутейший канал про Python

Здесь на простых картинках и понятном языке обучают этому языку, делятся полезными фишками и инструментами

Подписывайтесь: @PythonPortal
🧱 От модели к продукту: инженерная сторона ML в продакшене

Многие думают, что ML = модель.
На деле — модель = лишь 5–10% всей ML-системы.

📍 Как обрабатывать фичи в real-time?
📍 Как хранить версии данных и моделей?
📍 Где тонко рвётся пайплайн в проде?
📍 Что нужно для стабильного inference на высоких нагрузках?

Мы разобрали:
— основные компоненты бэкенда для ML-систем
— типовые архитектурные схемы
— частые ошибки в продакшене
— лучшие практики из MLOps и data engineering

📖 Читайте статью:
«Бэкенд под ML-проекты: особенности архитектуры и типичные узкие места»
https://proglib.io/sh/xCfXt2pH4j

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/05/30 00:00:28
Back to Top
HTML Embed Code: